x
Contents
5.9.2
Direction-Matching Distillation . . . . . . . . . . . . . . . . . . . . .
141
5.10 BiT: Robustly Binarized Multi-Distilled Transformer . . . . . . . . . . . . .
142
5.10.1 Two-Set Binarization Scheme . . . . . . . . . . . . . . . . . . . . . .
143
5.10.2 Elastic Binarization Function . . . . . . . . . . . . . . . . . . . . . .
144
5.10.3 Multi-Distilled Binary BERT . . . . . . . . . . . . . . . . . . . . . .
145
5.11 Post-Training Embedding Binarization for Fast Online Top-K Passage
Matching
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
146
5.11.1 Semantic Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . .
146
5.11.2 Gradient Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . .
147
6
Applications in Computer Vision
149
6.1
Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
149
6.1.1
Person Re-Identification . . . . . . . . . . . . . . . . . . . . . . . . .
149
6.1.2
3D Point Cloud Processing
. . . . . . . . . . . . . . . . . . . . . . .
149
6.1.3
Object Detection . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
150
6.1.4
Speech Recognition . . . . . . . . . . . . . . . . . . . . . . . . . . . .
150
6.2
BiRe-ID: Binary Neural Network for Efficient Person Re-ID . . . . . . . . .
151
6.2.1
Problem Formulation
. . . . . . . . . . . . . . . . . . . . . . . . . .
151
6.2.2
Kernel Refining Generative Adversarial Learning (KR-GAL)
. . . .
152
6.2.3
Feature Refining Generative Adversarial Learning (FR-GAL) . . . .
153
6.2.4
Optimization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
154
6.2.5
Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
156
6.3
POEM: 1-Bit Point-Wise Operations Based on E-M for Point Cloud
Processing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
157
6.3.1
Problem Formulation
. . . . . . . . . . . . . . . . . . . . . . . . . .
158
6.3.2
Binarization Framework of POEM . . . . . . . . . . . . . . . . . . .
159
6.3.3
Supervision for POEM . . . . . . . . . . . . . . . . . . . . . . . . . .
160
6.3.4
Optimization for POEM . . . . . . . . . . . . . . . . . . . . . . . . .
161
6.3.5
Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
164
6.4
LWS-Det: Layer-Wise Search for 1-bit Detectors
. . . . . . . . . . . . . . .
166
6.4.1
Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
167
6.4.2
Formulation of LWS-Det . . . . . . . . . . . . . . . . . . . . . . . . .
168
6.4.3
Differentiable Binarization Search for the 1-Bit Weight . . . . . . . .
169
6.4.4
Learning the Scale Factor . . . . . . . . . . . . . . . . . . . . . . . .
170
6.4.5
Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
171
6.5
IDa-Det: An Information Discrepancy-Aware Distillation for 1-bit Detectors
171
6.5.1
Preliminaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
174
6.5.2
Select Proposals with Information Discrepancy . . . . . . . . . . . .
174
6.5.3
Entropy Distillation Loss
. . . . . . . . . . . . . . . . . . . . . . . .
176
6.5.4
Ablation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
176
Bibliography
179
Index
203